论文推荐|[ICDAR 2021] 基于预测控制点的文档图像矫正(有源码)
本文简要介绍ICDAR 2021发表的论文“Document Dewarping with Control Points”的主要工作。该论文提出一个简单且有效的文档图像矫正方案:预测控制点和对应的参考点,然后通过插值对形变图进行矫正。插值方式和控制点数量都可以根据具体场景灵活地进行选择。方法取得了SOTA的结果。代码和训练数据都已开源。
图1 不同的矫正方式。 (a) 现有矫正系统多采用Encoder-decoder的结构来预测密集输出 (b) Forward Mapping, (c) Backward Mapping或者矫正后的文档图像。 (d) 该论文方法采用Encoder的结构预测稀疏的若干控制点和参考点,可取得和方案 (a) 相当矫正效果的同时更加灵活和实用。
一、研究背景
由于文档图像便于存储、检索和传输,其在我们日常生活中十分常见且扮演着十分重要的角色。不同于平面扫描仪获得的文档图像,由手持镜头拍照得到的文档图像往往含有几何形变以及环境背景的干扰。这会使得现有文档信息抽取和内容分析系统的性能下降。为了减小几何形变带来的影响,可以对文档图像进行矫正。
二、方法原理简述
图2 该论文整体流程图:一张含有形变的文档图像输入到神经网络,从神经网络的两个输出分支得到两个输出,分别是控制点和参考点;然后根据这些点对,通过TPS,Linear,Cubic等插值方式将稀疏的对应关系转化成一个密集的对应关系(一个密集的Backward Map);最后利用这个密集的对应关系就能从形变文档图像中采样得到矫正后的文档图像。
图3是该论文采用的神经网络结构图:以含有形变的文档图像作为输入,得到两个输出,分别是表征31x31个控制点坐标的输出
损失函数:网络采用合成数据进行有监督的训练。控制点的回归通过Smooth L1损失函数监督(其中
除了对控制点绝对位置坐标的监督,该论文还对控制点的相对位置关系进行监督,即预测的控制点间的关系应该和Ground-truth中控制点间的关系一样(k表示所取的周围控制点的数量):
参考点的间隔通过L1 Loss监督(
最后将3个Loss加权求和进行联合监督训练
三、主要实验结果及可视化结果
图5
图6 控制点数量的影响
图7 用户手动调整的效果。其中左边两张图表示手动调整前的控制点和矫正情况;右边两张图表示手动调整后的控制点和矫正情况。
图8 与现有方法在DocUNet 数据集上的可视化比较。从左到右分别是:输入;DocUNet的结果;DewarpNet的结果;Xie et al.方法的结果;该论文控制点预测结果;该论文矫正结果.
四、总结及讨论
五、相关资源
Document Dewarping with Control Points论文地址:
https://link.springer.com/content/pdf/10.1007%2F978-3-030-86549-8_30.pdf
Document Dewarping with Control Points 项目地址:
https://github.com/gwxie/Document-Dewarping-with-Control-Points
参考文献
[1] Xie, G. W., Yin, F., Zhang, X. Y., & Liu, C. L. (2020, July). Dewarping document image by displacement flow estimation with fully convolutional network. In International Workshop on Document Analysis Systems (pp. 131-144). Springer, Cham.
原文作者: Guo Wang Xie, Fei Yin, Xu Yao Zhang, Cheng-Lin Liu
撰稿:张家鑫
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[TNNLS 2022] SLOGAN——多样化手写体图像生成
[AAAI 2022] 感知笔画-语义上下文:用于鲁棒场景文本识别的分层对比学习方法
[ACM MM 2021] PIMNet:一种用于场景文本识别的并行、迭代和模仿网络(有源码)
论文推荐|[AAAI 2022]基于上下文的对比学习场景文本识别
[ACM MM 2021] | RecycleNet:一种重叠的文本实例的恢复方法
[ICDAR 2021]RF-Learning:基于特征互助的自然场景文字识别方法
[竞赛冠军方法分享] | PRCV 2021表格识别技术挑战赛--分阶段表格识别方案
论文推荐|[AAAI 2022]文本Gestalt: 基于笔画感知的场景文本图像超分辨率重构
竞赛冠军方法分享 | 基于多模态GCN和句子排序的POI生成方案
论文推荐|[ICDAR 2021]基于局部和全局金字塔掩模对齐的复杂表格结构识别(有源码)
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: